مطمئنا شما نیز بهعنوان یکی از کاربران اینترنت، تا حال هزاران بار
مجبور به وارد کردن کپچا (کدهایی متشکل از حروف و اعداد برای تشخیص کاربر
انسانی از روباتها و در واقع برنامههایهوشمند است) شدهاید. گوگل برای
کدهای خود، از تصاویری استفاده میکند که در نمونه آنرا در ادامه مطلب
مشاهده خواهد کرد ملاحظه میکنید؛ اما آیا گوگل فقط برای استفاده از کپچا
از این تصاویر بهره میبرد؟
به گزارش سافتگذر به نقل از زومیت؛ پاسخ این سوال خیر است، چراکه گوگل در حال توسعهی مکانیزمی است تا با
استفاده از آن، پلاک خانهها در StreetView و همچنین متون کتب در پروژهی
Google Books را بصورت هوشمند درک کند. براساس اسناد منتشر شده، گوگل موفق
به توسعه و آموزش یک شبکهی عصبی شده است که قادر است تا شمارهی پلاک
میلیونها منزل را از روی تصویر، بدون دخالت عامل انسانی بخواند.
شبکههای عصبی نوعی از شبکههای هوشمند هستند که در آن از الگوی ساخت و
تصمیمگیری مغز انسان الهام گرفته شده است؛ در واقع میتوان این فناوری را
شبیهسازی مغز انسان نامید که سعی دارد خاصیت یادگیری و تصمیمگیری موازی
را در سیستمهای رایانهای هوشمند به کارگیرد. این سیستم با پردازش تصاویر
ضبط شده توسط خودروهای StreetView کار کرده و روش کار آن بسیار شبیه به مغز
انسان است. این روش بهجای تقسیمبندی تصویر به قطعات مختلف و شناخت
اعداد، با بررسی تصویر در حالت کلی، اعداد را شناسایی میکند.
زمانی که شما در حال جستجوی آدرسی در گوگل هستید، انتظار دارید تا آدرس
ساختمان مورد نظر بهدرستی برای شما نمایش داده شود. شاید با نمایش
محدودهی آدرس مورد نظر، در مکانهایی که پلاکها بهترتیب توزیع شدهاند،
بتوان مکان مورد نظر را براحتی یافت؛ اما درصورتی که پلاکها بهترتیب
نباشند، کار سخت خواهد شد، از اینرو گوگل تصمیم به توسعهی این سیستم
گرفته است که با استفاده از آن میتوان پلاک منازل را نیز بصورت هوشمند ثبت
کرد که منجر به ارائهی آدرس دقیق میشود.
برای آموزش این سیستم، گوگل از اطلاعات موجود برای پلاکهای منازلی که
در پروژهی StreetView گوگل ثبت شده، استفاده کرده است. این اطلاعات
دیتاستی را که شامل 200,000 آدرس است، تشکیل داده است. تصاویر حاصل از این
آدرسها شامل 600,000 قطعه عکس از پلاک خانهها شده که برای آموزش شبکهی
عصبی مورد نظر به کار گرفته شده است.
گوگل برای تسهیل خواندن تصاویر توسط شبکهی عصبی مورد نظر، محدودیتها
یا بهبیان بهتر قوانینی را برای تصاویر نمایش داده شده به این سیستم، وضع
کرده است. تصاویر موردنظر باید بصورت خودکار شناسایی شده و بخش مربوط به
اعداد به شکلی باشد که یک سوم عرض کل تصویر را از آن خود کند. همچنین اعداد
خوانده شده توسط سیستم باید حداکثر پنج رقم باشد که برای بسیاری از مناطق
کاربردی است.
صحت خواندن اطلاعات و شمارهها از روی تصاویر ذخیره شده توسط نیروس
انسانی، 98 درصد است که گوگل نیز این مقدار را برای آستانهی کارایی شبکهی
عصبی در نظر گرفته است. این عدد به معنی 98 درصد از کل تصاویر موجود نیست
نخواهد بود؛ بلکه منظور 98 درصد از کل تصاویری است که حائز شرایط خوانده
شدن توسط شبکهی عصبی باشند. براساس ادعای گوگل، اطلاعات مربوط به 100
میلیون خیابان توسط این سیستم خوانده شده است.
بهواقع این سیستم، بخشی از کار را که برعهدهی نیروی انسانی بوده است
کاهش داده؛ اما هنوز تعداد بسیار زیادی از تصاویر وجود دارند که باید توسط
انسانها مورد برررسی قرار گیرند. محققان گوگل امیدوارند تا با توسعه هرچه
بیشتر این سیستم، شبکهی عصبی آنها قادر به خواندن اعداد و
شمارهتلفنهای روی بیلبوردها نیز باشد.